炒菜、做家务的开源机器人来了，斯坦福华人开发、Transformer 架构驱动、造价 3.2 万美元

CSDN 2024-01-17

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

过去几年间，随着 AI 的发展，一个属于机器人的万亿级赛道正在火热开启，无论是 Google 、特斯拉，还是国内的达闼、追觅、以及稚晖君创业的「智元机器人（AGIBot）」公司均投身其中。

不过，对于普通用户而言，机器人最为重要的并不是设计得多么好看，而是实用性。在当代年轻人的“精致懒”之吃饭要人弄、家务要人做状态下，如果有一款集做饭、收纳、保洁等多个才艺于一身的机器人，岂不美哉！

近日，斯坦福大学 3 位研究人员让许多用户的美梦成真了，其发布了一款名为 Mobile Aloha 的 AI 机器人。一经展示之后，这款机器人便迅速在网络上走红，成为不少人想人手一个的大热门产品。

只因为它，不仅可以煎大虾，亲自端上桌：

也能收拾不小心洒出来的水渍：

‍还能打开柜门，归纳整理：

刷碗：

简单来看，Mobile Aloha 是一种用于双手遥控操作的低成本开源硬件系统，解决了训练需要人类操作员仔细指导的移动双手机器人的高成本和技术挑战。

值得一提的是，Mobile Aloha 能实现以上操作，并非完全自主，其全身也支持远程操作。

得益于生成模型的成功，Mobile Aloha 可以快速从人类演示中学习，而且它可以只通过 50 次的演示就能学会一件事，合作训练可以提高成功率高达 90%。

同时，整个机器人机载电源和计算在内的成本为 3.2 万美元，远远低于市场现有的系统及硬件。更让人兴奋的是，Mobile Aloha 的软硬件均是开源的，也方便所有的 AI 爱好者、开发者深入学习与共建。

左：用户通过遥控操作从冰箱中获取食物；右图：Mobile ALOHA 可以通过模仿学习完成复杂的长时间任务

硬件代码：https://github.com/MarkFzp/mobile-aloha
软件代码：https://github.com/MarkFzp/act-plus-plus
项目地址：https://mobile-aloha.github.io/

研究 5 年，以低成本打破传统机器人系统的局限性

项目的负责人之一 Tony Z.Zhao 表示，“这个我过去 5 年里最努力的项目之一！”

而之所以会萌生开发这样一款会做饭的 AI 机器人，是因为该研究团队发现，大多数机器人操纵任务都侧重于桌面操纵。这包括最近基于 Transformer 和 Diffusion 模型（广泛应用于生成式人工智能的架构）建立的一系列模型。

然而，日常环境中的许多任务都需要全身协调的流动性和灵巧的操作。譬如，把一个罐子放进厨房的柜子里，那么，机器人需要首先导航到柜子边上，这就需要机器人底座可以移动；进而为了打开橱柜，机器人需要后退，同时牢牢抓住两个门把手，激发全身控制；随后双臂需要抓住锅柄，一起将锅放入橱柜，双手也要协调好。

在研究人员来看，过去有两个主要因素阻碍了模仿学习在双臂移动操作中的广泛应用：

缺乏可访问的、即插即用的全身远程控制硬件。当然并不是说市面上没有这种硬件，而是如果购买现成的机械手，成本会很高。像 PR2 和 TIA GO 这样的机器人价格可能超过 20 万美元，这让很多研究实验室无法负担。此外，要在这些平台上实现远程控制操作，还需要额外的硬件和校准。
以前的机器人学习工作没有表现出高性能的双臂移动操作复杂的任务。随着自由度的增加，手臂和基础动作之间的交互可能会变得复杂，基础姿势的微小偏差可能会导致手臂末端执行器姿势的大幅偏移。

在论文中，研究员表示，“立足于硬件和学习的角度，以前的工作还没有为双臂移动操作提供一个实用而有说服力的解决方案。”

现如今随着 AI 的发展，机器人到底可以不可以做到移动并实现协调全身去完成任务。研究人员研究了将模仿学习扩展到需要双臂移动机器人全身控制的任务可行性。

https://mobile-aloha.github.io/resources/mobile-aloha.pdf

Mobile ALOHA 的研发

在硬件维度，研究人员提出了 Mobile ALOHA，扩展了原始 ALOHA 的功能，这是一种低成本和全身远程控制系统，用于收集双臂移动操作数据。

在硬件设计时，研究人员主要从四个维度切入考虑：

移动速度要快：与人类的行走速度相媲美，约为 1.42 米/秒。
稳定性：在拿起沉重的家居物品时，如锅、吸尘器时，它是稳定的。
支持全身远程控制：所有的自由度可以同时远程操作，包括双臂和移动底座。
不受限制：板载电源和计算。

要想实现 Mobile ALOHA 的灵活性，研究员在它的下方安装了一个专为仓库设计的轮子底座——Tracer AGV，它可以承载 100kg，移动速度高达 1.6m/s，而成本只有 7000 美元。

为了使 Mobile ALOHA 不受限制，研究人员配备了一个 1.26 千瓦时的电池，重量在 14 公斤，这样还可以压住机器人，防止不平衡摔倒。此外，整个装置还包括网络摄像头和一个搭载消费级 GPU 的笔记本电脑，成本共计约为 3.2 万美元，比现成的双臂机器人便宜得多。

研究员在论文中介绍道，Mobile ALOHA 可同时遥控所有自由度。人类操作员的腰部被用物理的方式拴在系统上，并反向驱动车轮，在工作环境中驾驶系统，同时用控制器控制机器人手臂。同时，研究人员记录基本速度数据和手臂操纵数据，形成一个全身远程控制操作系统。

这样，机器人控制系统就能同时学习动作和其他控制指令。一旦收集到足够的信息，模型就能自主地重复一系列任务。

在模仿学习方面，Mobile ALOHA 利用了 Transformer（大型语言模型中使用的架构）。最初的 ALOHA 系统使用了一种名为 Action Chunking with Transformers (ACT) 的架构，它将来自多个视点和关节位置的图像作为输入并预测一系列动作。

Mobile ALOHA 将运动信号添加到输入向量中，从而扩展了该系统。这种方法可以让 Mobile ALOHA 重复使用以前的深度模仿学习算法，而只需做最小的改动。

在论文中，研究人员写道：“我们观察到，简单地将底座和手臂动作连接起来，然后通过直接模仿学习进行训练，就可以产生出色的表现。具体来说，我们将 ALOHA 的 14-DoF 关节位置与移动底座的线速度和角速度连接起来，形成 16 维动作向量。”

与此同时，研究人员汲取了近期业界在预训练和不同机器人数据集上取得的成功经验，并利用静态双臂数据集的信息，逐步提高模仿学习的性能。

在演示中，研究员展示了训练有素的机器人烹饪三道菜，并执行了一些精细的任务，例如打碎鸡蛋、切碎大蒜、倒液体、拆开蔬菜包装以及在煎锅中翻转鸡肉。

此外，Mobile ALOHA 还可以执行各种家务任务，包括给植物浇水、使用真空吸尘器、装卸洗碗机、从冰箱中取出饮料、操作洗衣机。

研究人员表示：“通过协同训练，我们只需对每项任务进行 50 次人类演示，就能在这些任务上取得超过 80% 的成功，与没有协同训练相比，平均绝对提高了 34%。”

Mobile ALOHA 背后的研究员

Mobile ALOHA 的到来，不仅打破了很多传统机器人的局限性，也让我们看到了这个年轻人团队为 AI 带来的无限潜力。

正如文章伊始所述，Mobile ALOHA 出自斯坦福大学 3 位研究人员之手，也是华人团队。

Zipeng Fu（项目联合负责人）

Zipeng Fu，是斯坦福人工智能实验室计算机科学专业的博士生，导师是 Chelsea Finn。

同时，他还是 Google DeepMind 的学生研究员，与 Google Brain Robotics 机器人运动和安全团队的技术主管经理 Jie Tan 一起工作。

此前，Zipeng Fu 在加州大学洛杉矶分校完成了计算机科学与应用数学学士学位，导师是 Song-Chun Zhu，后来在 CMU 攻读机器学习领域的硕士，并在机器人研究所担任学生研究员，导师是 Deepak Pathak 和 Jitendra Malik。

他的研究兴趣在于机器人学、机器学习和计算机视觉的交叉领域。重点关注机器人在非结构化开放世界中的强大性能和可部署机器人系统。

Tony Z. Zhao（项目联合负责人）

Tony Z. Zhao 是斯坦福大学计算机科学博士三年级学生，导师同是 Chelsea Finn。同时，他也是 Google Deepmind 的兼职学生研究员。

此前，Tony Z. Zhao 在特斯拉自动驾驶汽车公司和 Google X Intrinsic 实习。于 2021 年获得伯克利大学电子工程科学学士学位，导师是 Sergey Levine和 Dan Klein。

“我想让机器人能够执行复杂的精细操作任务。我对初创企业和自主机器人的未来感到兴奋”，Tony Z. Zhao 写道。

Chelsea Finn（顾问）

Chelsea Finn 是斯坦福大学计算机科学与电子工程系助理教授。她的实验室 IRIS 主攻研究大规模机器人交互智能，隶属于 SAIL 和 ML 小组。

除了教授职位之外，Chelsea Finn 在 Google 任职，是 Google Brain 团队的一员。

此前，Chelsea Finn 在加州大学伯克利分校获得了计算机科学博士学位，并在麻省理工学院获得了电子工程和计算机科学学士学位。

项目负责人现身发布翻车视频：并未做好接管世界的准备！

随着研究人员将这一项目对外公开，不少网友开始期待：「感觉我以后养老可以靠它了，现在开始攒钱，然后让机器人给我打工！」

不过，这样的幻想还没有持续多久，该项目负责人之一的 Tony Z.Zhao 紧急在 Twitter 上又发布一则视频，为 Mobile ALOHA 泼了一盆冷水。其表示，“机器人还没有准备好接管世界！我刚刚制作了一个视频，记录了在自主模式下犯下的最愚蠢的错误 Mobile ALOHA。我们还计划在休息后组织一些现场演示。敬请关注！”

在视频中，Mobile ALOHA 在自主模式下，不仅手抖，将酒杯里的水洒出来了，还让它自由落体，变成了玻璃渣：

弄翻了锅，研究员都来不及挽救：

Tony Z.Zhao 对此说道，「老实说，这可能是迄今为止我最喜欢的视频，当它在你面前失败时就不那么有趣了」。同时，他还向 2015 年 DARPA 机器人挑战赛、波士顿机器人失败的案例致敬。

其实，Tony Z.Zhao 在 Mobile ALOHA 爆火一天后选择公布“幕后花絮”，实则也是希望更多的人保持理性，减少炒作。在 AI 快速发展背后，其实也依然存在很多的不足，我们应该正确对待 AI 的发展，也要勇于面对失败，毕竟失败是成功非常重要的一个过程。

参考：

https://twitter.com/tonyzzhao/status/1743378437174366715

https://twitter.com/tonyzzhao/status/1742603130104414647

https://mobile-aloha.github.io/resources/mobile-aloha.pdf

https://venturebeat.com/automation/stanfords-mobile-aloha-robot-learns-from-humans-to-cook-clean-do-laundry/

推荐阅读：

▶商汤要让人工智能走进千家万户！

▶小米终极辟谣：小米汽车正式发布前不会公布售价；微软市值或超苹果；Vim 9.1 发布 | 极客头条

▶独家：马化腾回应微信“偷窥”相册

继续滑动看下一个

炒菜、做家务的开源机器人来了，斯坦福华人开发、Transformer 架构驱动、造价 3.2 万美元

CSDN

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

炒菜、做家务的开源机器人来了，斯坦福华人开发、Transformer 架构驱动、造价 3.2 万美元

炒菜、做家务的开源机器人来了，斯坦福华人开发、Transformer 架构驱动、造价 3.2 万美元

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，宜藏宜礼！

央视罕见表扬，美哭3亿人：璀璨中国史，正在走向全世界

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

生成图片，分享到微信朋友圈

炒菜、做家务的开源机器人来了，斯坦福华人开发、Transformer 架构驱动、造价 3.2 万美元

炒菜、做家务的开源机器人来了，斯坦福华人开发、Transformer 架构驱动、造价 3.2 万美元

您可能也对以下帖子感兴趣